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10. DEVICE FOR DETERMINING LOCAL EXTREME 
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1 1. DEVICE FOR DETERMINING SURFACE OR 
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(57) Abstract: According to the invention, in order to characterise an information signal having an amplitude- time course with local 
extreme values, the local extreme values of the information signal are determined (10), a local extreme value being defined by a 
moment and an amplitude. Surface information of highs or lows of the information signal is then determined (11) in the event of 
a unidimensional amplitude of the information signal, or volume information of lows or highs is determined (11) in the event of a 
two-dimensional amplitude of the information signal. A low or a high is defined by a temporal section of the information signal, 
said section extending from the moment of a local extreme value to a temporally adjacent value of the information signal, which has 
the same amplitude as the local extreme value. Surface or volume information of a plurality of highs and lows is characteristic of the 
information signal and enables a broader characterisation of the information signal, the construction of an information signal database 
or the identification of an information signal by means of an existing information signal database. Surface or volume information is 
both characteristic of the information signal and is resistant, due to its integral nature, to information signal variations in the form of 
overlays or distortion. 

[Fortsetzung auf der nachsten Seite] 
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(57) Zusammenfassung: Zum Charakterisieren eines Informationssignals, das einen Amplituden-Zeit-Verlauf mit lokalen Extrem- 
werten aufweist, werden zunachst die lokalen Extremwerte des Informationssignals bestimmt (10), wobei ein lokaler Extremwert 
durch einen Zeitpunkt und eine Amplitude definiert ist. Ferner werden Flacheninformationen von Talern oder Bergen des Infor- 
mationssignals im Falle einer eindimensionalen Amplitude des Infor-mationssignals oder Volumeninformationen im Falle einer 
zweidimensionalen Amplitude des Informationssignals von Bergen oder Talern ermittelt (11). Ein Tal oder Berg ist durch einen 
zeitlichen Abschnitt des Informationssignals definiert, wobei sich der Abschnitt des Informationssignals von dem Zeitpunkt eines 
lokalen Extremwerts bis zu einem zeitlich benachbarten Wert des Informationssignals erstreckt, der die gleiche Amplitude wie der 
lokale Extremwert aufweist. Flachen- oder Volumeninformationen von mehreren Bergen oder Talern sind fiir das Informations signal 
charakteristisch und erlauben eine weitergehende Charakterisierung des Informationssignals, einen Aufbau einer Information ssig- 
nal-Datenbank oder eine Identifikation eines Informationssignals anhand einer bestehenden Informations si gnal-Datenbank. Flachen- 
bzw. Volumeninformationen sind einerseits charakteristisch fur das Informationssignal und andererseits aufgrund ihrer integralen 
Natur robust gegeniiber Informations si gnalveranderungen in Form von Uberlagerungen oder Verzerrungen. 
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Vorrlchtung und Verfahren zum Charakterisieren eines Inf or- 

mationssignals 

5 Beschreibung 

Die vorliegende Erfindung bezieht sich auf die Verarbeitung 
von Inf ormationssignalen und insbesondere auf die Merk- 
malsextraktion von Inf ormationssignalen beispielsweise zur 
10 Charakterisierung der Inf ormationssignale oder zur Identi- 
f ikation und Datenbanksuche . 

Konzepte, durch die Zeitsignale mit einem harmonischen An- 
teil, wie z. B. Audiodaten, identif izierbar und referen- 

15 zierbar sind, sind fur viele Anwender nutzlich. Insbesonde- 
re in einer Situation, in der ein Audiosignal vorliegt, 
dessen Titel und Autor unbekannt sind, ist es oftmals wiin- 
schenswert, herauszuf inden, von wem das entsprechende Lied 
stammt. Ein Bedarf hierzu besteht beispielsweise, wenn der 

20 Wunsch vorhanden ist, z. B. eine CD des betreffenden Inter- 
preten zu erwerben. Wenn das vorliegende Audiosignal ledig- 
lich den Zeitsignalinhalt umfafit, jedoch keinen Namen uber 
den Interpreten, den Musikverlag etc., so ist eine Identi- 
fizierung des Ursprungs des Audiosignals bzw. von wem ein 

25 Lied stammt, nicht moglich. Die einzige Hoffnung bestand 
dann darin, das Audiostuck samt Ref erenzdaten bezuglich des 
Autors oder der Quelle, wo das Audiosignal zu erwerben ist, 
noch einmal zu horen, urn dann den gewunschten Titel be- 
schaffen zu konnen. 

30 

Im Internet ist es nicht moglich, Audiodaten unter Verwen- 
dung herkommlicher Suchmaschinen zu suchen, da die Suchma- 
schinen lediglich mit textuellen Daten umgehen konnen. Au- 
diosignale bzw. allgemeiner gesagt, Zeitsignale, die einen 
35 harmonischen Anteil haben, konnen durch solche Suchmaschi- 
nen nicht verarbeitet werden, wenn sie keine textuellen 
Suchangaben umfassen. 
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Ein realistischer Bestand an Audiodateien liegt bei mehre- 
ren tausend gespeicherten Audiodateien bis zu hunderttau- 
senden von Audiodateien- Musikdatenbankinf ormationen konnen 
auf einem zentralen Internet-Server abgelegt sein, und po- 
5 tentielle Suchanfragen konnten uber das Internet erfolgen. 
Alternativ sind bei heutigen Festplattenkapazitaten auch 
die zentrale Musikdatenbanken auf lokalen Festplattensyste- 
men von Benutzern denkbar. Es ist wunschenswert , solche Mu- 
sikdatenbanken durchsuchen zu konnen, urn Ref erenzdaten uber 
10 eine Audiodatei zu erfahren, von der lediglich die Datei 
selbst, jedoch keine Ref erenzdaten bekannt sind. 

Dariiber hinaus ist es gleichermaften wunschenswert, Musikda- 
tenbanken unter Verwendung vorgegebener Kriterien durchsu- 
15 chen zu konnen, die beispielsweise dahingehend lauten, ahn- 
liche Stucke herausfinden zu konnen. Ahnliche Stucke sind 
beispielsweise die Stucke mit einer ahnlichen Melodie, ei- 
nem ahnlichen Instrumentensatz , oder einfach mit ahnlichen 
Gerauschen, wie z. B. Meeresrauschen, Vogelgezwitscher, 

2 0 mannliche Stimmen, weibliche Stimmen, etc. 

Das U.S. -Patent Nr. 5,918,223 offenbart ein Verfahren und 
eine Vorrichtung fur eine Inhalts-basierte Analyse, Spei- 
cherung, Wiedergewinnung und Segmentierung von Audioinfor- 
25 mationen. Dieses Verfahren beruht darauf, mehrere akusti- 
sche Merkmale aus einem Audiosignal zu extrahieren. Gemes- 
sen werden Lautstarke, Bali, Tonhohe, Brightness und Melfre- 
quenz-basierte Cepstral-Kof f izienten in einem Zeitfenster 
bestimmter Lange in periodischen Intervallabstanden . Jeder 

3 0 Mefidatensatz besteht aus einer Folge von gemessenen Merk- 

malsvektoren. Jede Audiodatei ist durch den kompletten Satz 
der pro Merkmal berechneten Merkmalsf olgen spezif iziert . 
Ferner werden die ersten Ableitungen fur jede Folge von 
Merkmalsvektoren berechnet. Dann werden statistische Werte 
35 wie Mittelwert und Standardabweichung berechnet. Dieser 
Satz von Werten wird in einem N-Vektor, d. h. einem Vektor 
mit n Elementen, gespeichert. Diese Vorgehensweise wird auf 
eine Vielzahl von Audiodateien angewendet, urn fur jede Au- 
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diodatei einen N-Vektor abzuleiten. Damit wird nach und 
nach eine Datenbank aus einer Vielzahl von N-Vektoren auf- 
gebaut. Aus einer unbekannten Audiodatei wird dann unter 
Verwendung derselben Vorgehensweise ein Such-N-Vektor ext~ 
5 rahiert. Bei einer Suchanfrage wird dann eine Abstandsbe- 
rechnung des vorgegebenen N-Vektors und der in der Daten- 
bank gespeicherten N-Vektoren ermittelt. Schlieftlich wird 
der N-Vektor ausgegeben, der den minimalen Abstand zu dem 
Such-N-Vektor hat. Dem ausgegebenen N-Vektor sind Daten ii- 
10 ber den Autor, den Titel, die Beschaf f ungsquelle etc. zuge- 
ordnet, so daii eine Audiodatei hinsichtlich ihres Ursprungs 
identif iziert werden kann. 

Dieses Verfahren hat den Nachteil, daii mehrere Merkmale be- 
15 rechnet werden und willkiirliche Heuristiken zur Berechnung 
der KenngroJien eingefiihrt werden. Durch Mittelwert- und 
Standardabweichungsberechnungen iiber alle Merkmalsvektoren 
fiir eine gesamte Audiodatei wird die Information, die durch 
den zeitlichen Verlauf der Merkmalsvektoren gegeben ist, 
20 auf wenige MerkmalsgroBen reduziert. Dies fiihrt zu einem 
hohen Inf ormationsverlust . 

Grundsatzlich haben alle sogenannten Features bzw. Merkma- 
le, die zur Identif ikation von Inf ormationssignalen einge- 

25 setzt werden, zwei gegenlaufige Anf orderungen zu erfiillen. 
Die eine Anforderung besteht darin, eine moglichst gute 
Charakterisierung eines Inf ormationssignals zu liefern. Die 
andere Anforderung besteht darin, daii das Merkmal oder Fea- 
ture nicht besonders viel Speicherplatz in Anspruch nehmen 

30 darf, also so wenig Inf ormationen als moglich haben darf. 
Im Hinblick auf den Speicherplatz kleinere Features haben 
unmittelbar kleinere Inf ormationssignaldatenbanken zur Fol- 
ge und resultieren auch in einer schnelleren Datenbanksu- 
che, urn eine qualitative Aussage iiber ein zu testendes In- 

35 f ormationssignal oder sogar eine quantitative Aussage iiber 
ein solches Inf ormationssignal treffen zu konnen. 



WO 2004/010327 



4 



PCT/EP2003/001916 



Eine weitere ebenfalls wichtige Anforderung an das aus dem 
Inf ormationssignal zu extrahierende Merkmal besteht darin, 
daft das Merkmal robust gegeniiber Veranderungen sein sollte. 
Solche Veranderungen bestehen in einem systemimmanenten 
5 Rauschen, einer Verzerrung z. B. aufgrund eines verlustbe- 
hafteten Codierverf ahrens . Andere Signalveranderungen sind 
beispielsweise Anderungen der Lautstarke am Beispiel eines 
Audiosignals sowie Verzerrungen aufgrund eines Abspielens 
eines Audiosignals uber einen Lautsprecher und Wiederauf- 
10 zeichnen des Audiosignals iiber ein Mikrophon etc. 

Die Aufgabe der vorliegenden Erfindung besteht darin, ein 
flexibles und robustes Konzept zum Charakterisieren eines 
Inf ormationssignals zu schaffen. 

15 

Diese Aufgabe wird durch eine Vorrichtung zum Charakteri- 
sieren eines Inf ormationssignals gemaft Anspruch 1, ein Ver- 
fahren zum Charakterisieren eines Inf ormationssignals nach 
Patentanspruch 19, eine Vorrichtung zum Aufbauen einer In- 

20 f ormationssignaldatenbank nach Patentanspruch 20, ein Ver- 
fahren zum Aufbauen einer Inf ormationssignaldatenbank nach 
Patentanspruch 21, eine Vorrichtung zum Identif izieren ei- 
nes Inf ormationssignals nach Patentanspruch 22, ein Verfah- 
ren zum Identif izieren eines Inf ormationssignals nach Pa- 

25 tentanspruch 23 oder ein Computer-Programm nach Patentan- 
spruch 24 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daft eine einerseits charakteristische Darstellung eines In- 

3 0 f ormationssignals und andererseits eine Darstellung des In- 
f ormationssignals mit begrenztem Speicheraufwand dadurch 
erreicht werden kann, daft der Amplituden-Zeit-Verlauf des 
Inf ormationssignals dahingehend verarbeitet wird, daft loka- 
le Extremwerte bestimmt werden, und daft Flacheninf ormatio- 

35 nen im Falle eines Inf ormationssignals mit eindimensionaler 
Amplitude oder Volumeninf ormationen im Falle eines Audio- 
signals mit zweidimensionaler Amplitude von Talern oder 
Bergen des Inf ormationssignals ermittelt werden, wobei je- 
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dem Tal oder Berg des Inf ormationssignals ein lokaler Ex- 
tremwert sowie ein zeitlicher Abschnitt zugeordnet ist, wo- 
bei sich der zeitliche Abschnitt des Inf ormationssignals 
fur einen Berg oder fiir ein Tal von dem Zeitpunkt des loka- 
5 len Extremwerts bis zu einem zeitlich benachbarten Wert des 
Inf ormationssignals erstreckt, der die gleiche Amplitude 
wie der lokale Extremwert aufweist. Dadurch werden Flachen- 
inf ormationen bzw. Volumeninf ormationen in zeitlich aufein- 
anderf olgender Darstellung erhalten, die fiir das Informati- 
10 onssignal charakteristisch sind. 

Die vorliegende Erfindung ist dahingehend vorteilhaft, daft 
die charakteristischen Eigenschaf ten eines Amplituden-Zeit- 
Verlaufs in Form von Flacheninf ormationen oder Volumenin- 

15 formationen integrale GroBen sind, die im Gegensatz bei- 
spielsweise zu Amplituden-Zeit-Tupel oder zu sonstigen eher 
an den akustischen Eigenschaf ten eines Audiosignals angena- 
herten Merkmalen, relativ invariante Grofien sind, die in 
ihrer tatsachlichen quantitativen Grofte oder zumindest in 

20 ihrer relative Grofie in Hinblick auf eine zeitliche Folge 
gegeniiber Verzerrungen, Rauschen etc. eine hohe Robustheit 
aufweisen. 

Dariiber hinaus ermoglicht das erf indungsgemafte Konzept der 
25 Darstellung eines Inf ormationssignals durch integrale Gro- 
Ben, die vom Amplituden-Zeit-Verlauf des Inf ormationssig- 
nals abgeleitet sind, eine stark komprimierte Darstellung, 
die im Hinblick auf eine Inf ormationssignal-Identif ikation 
zum einen zu kleinen Datenbanken fuhrt und zum anderen zu 
3 0 kurzen Suchdauern zum Durchsuchen einer Datenbank unter 
Verwendung einer solchen Charakteristik eines zu testenden 
Signals . 

Ein weiterer Vorteil des erf indungsgemaflen Konzepts besteht 
35 darin, daii die Darstellung eines Inf ormationssignals mit 
einem Amplituden-Zeit-Verlauf anhand von integralen Fla- 
chen- oder Volumeninf ormationen in zeitlicher Folge beson- 
ders gut fur Inf ormationssignale geeignet sind, die sich 
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wiederholencie Grundstrukturen haben, wie z. B. Audiosigna- 
le. So liefern Instrumente beispielsweise ein Signal, das 
fur jedes Instrument charakteristisch ist, und das insbe- 
sondere eine fur jedes Instrument charakteristische Folge 
5 von Flacheninformationen aufweist. Sich wiederholende Mus- 
ter treten auf, wenn ein Instrument auf einanderf olgende To- 
ne spielt. Dieses Muster findet sich unmittelbar in den 
auf einanderf olgenden Flacheninformationen wieder. Eine Mus- 
tererkennung der Folge von Flacheninformationen kann daher 

10 dazu verwendet werden, das Audiosignal zu segmentieren, urn 
diverse Nachverarbeitungen vornehmen zu konnen, wie z. B. 
eine Polyphonklangerkennung, eine Musikinstrumentenerken- 
nung oder eine Melodieerkennung . Daruber hinaus zeichnen 
sich gesprochene Laute durch sich wiederholende Signalmus- 

15 ter aus. Daher ist das erf indungsgemafte Konzept auch zur 
Nachverarbeitung von Sprachsignalen geeignet, urn beispiels- 
weise eine Spracherkennung durchzuf iihren . 

Quasi-stationare Audiosignale als Beispiel fiir Informati- 
20 onssignale, die sich besonders gut fiir das erf indungsgemafie 
Konzept eignen, wobei die Audiosignale beispielsweise durch 
Sprachlaute oder Musikinstrumenten-Laute dargestellt sind, 
zeichnen sich dadurch aus, daJ5 Replika des gleichen bzw. 
eines nur langsam veranderlichen Bodenprofils bzw. der 
25 gleichen oder einer nur langsam veranderlichen Audiosignal- 
form n-fach aneinander gereiht werden, abhangig davon, wie 
lange der Sprachlaut gehalten bzw. wie lange der Ton an- 
gehalten wird. Replika der gleichen Signalform werden lokal 
festgestellt, indem gleiche oder nur geringfugig abweichen- 
3 0 de Flacheninformationen der Folge von Flacheninformationen 
vorzugsweise des Original- und des Komplementarsignals mit- 
einander verglichen werden. 

Gleiche Wellenziige werden also dadurch identif iziert , dafi 
35 gleiche Flacheninhalte assoziiert werden. Der absolute In- 
halt, d. h. ein Flachenintegral, kann aber auch angeben, ob 
es sich urn einen Vokal, Konsonant, ein bestimmtes Musikin- 
strument, einen hochf requenten Ton etc. handelt. 
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Bevorzugte Ausf iihrungsbeispiele der vorliegenden Erfindung 
werden nachfolgend Bezug nehmend auf die beiliegenden 
Zeichnungen detailliert erlautert. Es zeigen: 

5 

Fig. 1 ein Blockschaltbild einer erf indungsgemaJSen Vor- 
richtung zum Charakterisieren eines Informations- 
signals; 



10 Fig. 2 ein Blockschaltbild einer erf indungsgemaBen Vor- 
richtung zum Aufbauen einer Inf ormationssignal- 
Datenbank; 

Fig. 3 ein Blockschaltbild einer erf indungsgemaften Vor- 
15 richtung zum Identif izieren eines Test-Inf orma- 

tionssignals unter Verwendung einer Inf ormations- 
signal-Datenbank; 

Fig. 4 einen Amplituden-Zeit-Verlauf eines beispielhaf- 
20 ten Inf ormationssignals mit eingezeichneten Fla- 

cheninf ormationen fur lokale Maxima und lokale 
Minima; 

Fig. 5 ein beispielhaf tes Signalf ormdiagramm fur einen 
25 gesprochenen Vokal "o"; und 

Fig. 6 ein Amplituden-Zeit-Verlauf zur Darstellung der 
Normierung einer Flache bzw. eines Volumens auf 
eine Gesamtflache bzw. ein Ge samtvo lumen . 

30 

Bevor detaillierter auf die nachf olgenden Figuren eingegan- 
gen wird, wird zunachst zur besseren Anschaulichkeit der 
Erfindung das allgemeine Prinzip erlautert. In Anlehnung an 
die nachfolgende Erorterung wird das erf indungsgemafie Kon- 
35 zept fur Audiosignale als Inf ormationssignale auch als "Au- 
dio-Watershed" bezeichnet. Dieses Konzept ist ein Konzept, 
mit dem Audiosignale in Intervalle unterteilbar sind. In 
der Geodasie ist das Konzept sehr anschaulich beschreibbar . 
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Berg- und Talbodenformationen werden von Regenwasser ange- 
fiillt. Das Wasser sammelt sich in Talsenken und umstromt 
Bergkuppen. Der maximale Fiillstand einer isolierten Region 
ist durch das zweidimensionale Bodenprofil und die Hohe der 
5 geringsten Durchlafistelle gegeben. Die auf genommene Wasser- 
menge kann einfach bestimmt werden, indem gemessen wird, 
welche Wassermenge der kontinuierlich stromenden Regenwas- 
serquelle bis zum Uberlauf entnommen wurde. 

Fur eindimensionale Informationssignale, beispielsweise Au- 
diosignale, verteilen sich die herabregnenden Wassermengen 
liber den gesamten Verlauf der Audiowellenziige . Zwischen 
zwei benachbarten lokalen Wellenmaximas bleibt das Wasser 
stehen und wird eingeschlossen . Sukzessive konnen weitere 
Teilbereiche geflutet werden, bis zum Schlufl auch das Amp- 
litudenmaximum der gesamten Signaldarstellung geflutet ist. 
Zu diesem Zweck miiflte angenommen werden, daB die Rander am 
Anfang und am Ende des Signals hoch sind, und zwar mindes- 
tens hoher als das globale Maximum des Signals. Dieses Kon- 
zept funktioniert jedoch auch ohne die Annahme solcher ho- 
her Rander. Dann wird das Maximum nicht geflutet, sondern 
das Wasser steigt nur bis zur Hohe des zweithochsten Maxi- 
mums an . 

25 Zur detaillierteren Darstellung des Signals wird es bevor- 
zugt, den Signalverlauf langs der t-Achse zu spiegeln, urn 
ein komplementares Inf ormationssignal zu erhalten, urn das 
invertierte Profil entsprechend durch Flachenbestimmung der 
Taler zu vermessen. 

30 

Nachdem sich insbesondere bei den beschriebenen Informati- 
onssignalen gleiche Wellenzuge periodisch quasi-stationar 
wiederholen, haben sie auch immer den gleichen "Wasserin- 
halt", so daft eine Segmentierung aufgrund des Wasserinhalts 
35 eines Wellenzugs, der sich aus mehreren Wasserinhalten der 
Taler, die in dem Wellenzug vorhanden sind, zusammensetzt , 
erfolgen kann. Gleiche Wellenzuge werden also dadurch iden- 
tifiziert, dai3 gleiche Flacheninhalte assoziiert werden. 
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Wie es noch anhand von Fig. 4 erlautert werden wird, kann 
die Informationssignalcharakterisierung nicht nur anhand 
von Talern, die durch lokale Maxima definiert sind, durch- 
5 gefiihrt werden, sondern auch anhand von Bergen, deren Ba- 
sislinie durch ein lokales Minimum definiert ist, und deren 
Gipfel durch den Signalverlauf begrenzt sind. Diese Dar- 
stellung ist gleichwertig zur Invertierung des urspriingli- 
chen Inf ormationssignals und zur Betrachtung der Taler im 
10 invertierten Inf ormationssignal . 

Das erf indungsgemafte Konzept ist fur samtliche Informati- 
onssignale, die einen Amplituden-Zeit-Verlauf aufweisen, 
der lokale Extremwerte hat, anwendbar. Solche Informations- 

15 signal konnen Audiosignale, Videosignale, Spannungssignale 
oder Stromsignale, die irgendwie geartete Meftgrofien identi- 
fizieren, etc. sein. Am Beispiel von Audiosignalen oder Vi- 
deosignalen sei darauf hingewiesen, daft der zeitliche Ver- 
lauf, also das Inf ormationssignal nicht unbedingt eine 

20 Spannungsamplitude oder eine Stromamplitude angeben muJi, 
sondern daft das Inf ormationssignal auch eine Leistung oder 
einen Schalldruck als Amplitude haben kann. 

Daruber hinaus sei darauf hingewiesen, daB das Informati- 
25 onssignal eine eindimensionale Amplitude haben kann, wie z. 
B. bei einem Audiosignal, daJi das Inf ormationssignal jedoch 
auch eine zweidimensionale Amplitude haben kann, so daB der 
Amplituden-Zeit-Verlauf des Inf ormationssignals tatsachlich 
dreidimensionale Berge und Taler umfalit, wahrend diese Ber- 
30 ge und Taler im Falle eines Inf ormationssignals mit eindi- 
mensionaler Amplitude lediglich einen zweidimensionalen 
Verlauf haben, also durch Flacheninf ormationen dargestellt 
werden konnen. 

35 Daruber hinaus sei darauf hingewiesen, daJ5 das Informati- 
onssignal selbstverstandlich nicht ein kontinuierliches 
Signal sein muJ3, sondern daft dasselbe auch ein zeitdiskre- 
tes Signal sein kann, bei dem ein gedachter kontinuierli- 
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cher Verlauf aus Anschaulichkeitsgriinden angenommen we r den 
kann, der sich durch eine gerade Verbindung auf einanderf ol- 
gender zeitdiskreter Signalwerte oder durch Interpolation 
ergibt . 

5 

Nachfolgend wird anhand von Fig. 4 die vorliegende Erfin- 
dung dargestellt. Fig. 4 zeigt ein Inf ormationssignal 40 
mit einem Amplituden-Zeit-Verlauf . Bei dem in Fig, 4 ge~ 
zeigten Inf ormationssignal handelt es sich urn ein Informa- 

10 tionssignal mit eindimensionaler Amplitude. Das dargestell- 
te Inf ormationssignal ist ein typisches Audiosignal, das 
sich wiederholende Wellenziige hat, wobei ein Wellenzug im 
ersten Segment A dargestellt ist, wahrend der sich wieder- 
holende Wellenzug im zweiten Segment B dargestellt ist. Es 

15 sei darauf hingewiesen, daft sich das Inf ormationssignal im 
zweiten Segment B selbstverstandlich von dem Informations- 
signal im ersten Segment A unterscheidet, jedoch nicht in 
seiner grundsatzlichen Topologie sondern lediglich bei dem 
in Fig. 4 gezeigten Ausf uhrungsbeispiel in der Amplitude zu 

20 bestimmten Zeitpunkten. 

Das Inf ormationssignal weist lokale Maxima 41a, 41b, 41c, 
41d, 41e und 41f auf. Jedem lokalen Maximum ist ein eigenes 
Tal zugeordnet. Dem Maximum 41a ist das mit AO bezeichnete 

25 Tal zugeordnet. Entsprechend ist dem Maximum 41b das Tal Al 
zugeordnet. Dariiber hinaus ist dem Maximum 41d das AB1 zu- 
geordnet. Dem Maximum 41c ist nun, da ein Teil des gesamten 
Tals bereits durch AB1 dem Maximum 41d zugeordnet ist, le- 
diglich der daruberliegende Rest des Tals, der mit AB2 be- 

30 zeichnet ist, zugeordnet. SchlieJilich ist dem Maximum 41e 
das Tal Bl zugeordnet. Dem lokalen Maximum 41f in Fig. 4 
ist kein eigenes Tal zugeordnet. Dies liegt jedoch ledig- 
lich daran, daii der weitere Verlauf des Inf ormationssignals 
nicht mehr dargestellt ist. 

35 

Wie es aus Fig. 4 ersichtlich ist, ist jedes Tal durch ei- 
nen zeitlichen Abschnitt definiert, der in Fig. 4 am Bei- 
spiel des Tals Al, dem das lokale Maximum 41b zugeordnet 
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ist, mit 42 bezeichnet ist. Der zeitliche Abschnitt er- 
streckt sich insbesondere von dem Zeitpunkt 43 des Auftre- 
tens des lokalen Maximums 41b bis zu einem zeitlich benach- 
barten Wert des Informationssignals, der die gleiche Ampli- 
5 tude wie der lokale Extremwert aufweist. Dieser zeitliche 
Wert ist in Fig. 4 mit 44 bezeichnet. Damit ergibt sich die 
Flache Al, die das dem lokalen Maximum 41b zugeordnete Tal 
reprasentiert. Entsprechend werden die anderen Taler AO, 
AB2, BO, Bl behandelt. Aus der Folge der Taler AO, Al, AB1, 
10 B0, Bl ergibt sich bereits eine Charakterisierung des In- 
formations signal s , die zur Identif ikation verwendet werden 
kann . 

Erf indungsgemaB wird es jedoch bevorzugt, nicht nur die 
Flacheninf ormationen von Talern des Inf ormationssignals 
sondern auch die Flacheninf ormationen von Talern des inver- 
tierten Inf ormationssignals zu berechnen. Eine Inversion 
des Inf ormationssignals kann erreicht werden, wenn Fig. 4 
einfach umgedreht wird. Dies ist durch die umgekehrt ge- 
schriebenen Flachenidentif ikatoren A0 f , Al 1 , A2 ' , A21 1 , 
A210 1 , B0 1 , Bl 1 , B2', B21 1 , B210 1 dargestellt. 

Alternativ, wenn Fig. 4 nicht "umgedreht wird", so ergeben 
sich die "Berge", die jedem lokalen Minimum zugeordnet 
25 sind, f olgendermaJien . Eine Untersuchung des Informations- 
signals liefert lokale Minima 45a, 45b, 45c, 45e, 45f. Der 
erste Berg AO' ist durch das lokale Minimum 45a sowie durch 
den zeitlich benachbarten Wert des Inf ormationssignals be- 
stimmt, der denselben Wert wie das lokale Minimum hat, also 
3 0 einen Wert 4 6 definiert. Zwischen dem Wert 4 6 und dem loka- 
len Minimum 45a ergibt sich der zeitliche Abschnitt 47, der 
den Berg AO 1 identif iziert . Zur Charakterisierung des In- 
f ormationssignals wird nun die Flache des Berges AO f gemafi 
der in Fig. 4 gezeigten Darstellung als Flacheninf ormatio- 
35 nen berechnet . Analog hierzu wird mit dem Berg Al 1 , A2 1 
etc. vorgegangen. Aus Fig. 4 ist ferner ein Fall ersicht- 
lich, bei dem sich der Berg A210', dem das lokale Minimum 
45c zugeordnet ist, iiber einem Berg A21' befindet, dem das 
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lokale Minimum 4 5a zugeordnet ist und insbesondere iiber den 
Bergen Al ' und A2 1 befindet, denen das lokale Minimum 45b 
zugeordnet ist- Aus dem in Fig. 4 gezeigten Beispiel ist 
somit ersichtlich, dafi einem lokalen Minimum auch zwei Fla- 
5 cheninf ormationen zugeordnet sein konnen, derart, dafi dem 
lokalen Minimum 45b sowohl die Flacheninf ormation des Bergs 
Al 1 als auch die Flacheninf ormation des Bergs A2 1 zugeord- 
net ist. Entsprechendes gilt fur das lokale Minimum 45a, 
dem sowohl die Flacheninf ormationen AO 1 als auch die Fla- 
10 cheninf ormationen A21 f zugeordnet sind. 

Bei der Betrachtung der Flacheninf ormationen A210 r , A21 T , 
A2 1 und Al f wird ersichtlich, dafi hier dieselbe Vorgehens- 
weise verwendet worden ist, wie sie anhand der ubereinander 
15 liegenden Taler ABl und AB2 erlautert worden ist. 

Nach einer Bearbeitung des Inf ormationssignals dahingehend, 
dafi die Flacheninf ormationen samtlicher Berge und Taler in 
Zuordnung zu den entsprechenden lokalen Maxima und Minima 

20 bzw. in Zuordnungen zu einem bestimmten Zeitpunkt sind, der 
ein ausgewahlter Zeitpunkt aus dem zeitlichen Abschnitt 
ist, wird eine Folge von Flacheninf ormationen bzw. Volumen- 
inf ormationen erhalten, wobei diese Folge von Zeit- 
Flachenwerten bzw. Zeit-Volumenwerten fur das Inf ormations- 

25 signal charakteristisch ist. 

Nachfolgend wird Bezug nehmend auf Fig. 1 eine bevorzugte 
Vorrichtung zum Charakterisieren eines Inf ormationssignals 
dargestellt. Die Vorrichtung zum Charakterisieren eines In- 

3 0 f ormationssignals , das einen Amplituden-Zeit-Verlauf mit 
lokalen Extremwerten aufweist, umfafit eine Einrichtung 10 
zum Bestimmen von lokalen Extremwerten des Inf ormationssig- 
nals, wobei ein lokaler Extremwert einen Zeitpunkt und ei- 
nen Amplitudenwert umfafit. Der Einrichtung 10 zum Bestimmen 

35 von lokalen Extremwerten ist eine Einrichtung 11 zum Ermit- 
teln von Flachen- bzw. Volumeninf ormationen fur Berge und 
Taler des Inf ormationssignals nachgeschaltet . Die Einrich- 
tung zum Ermitteln von Flacheninf ormationen oder Volumenin- 
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formationen ist wirksam, urn die Flache eines Tals oder 
Bergs zu berechnen, wobei ein Tal oder Berg durch einen 
zeitlichen Abschnitt des Inf ormationssignals definiert ist, 
wobei sich der Abschnitt des Inf ormationssignals von dem 
5 Zeitpunkt des lokalen Extremwerts bis zu einem zeitlich be- 
nachbarten Wert des Inf ormationssignals, der die gleiche 
Amplitude wie der lokale Extremwert aufweist, erstreckt. 
Die Flacheninf ormationen von mehreren Bergen oder Talern 
sind fur das Inf ormationssignal charakteristisch . 

10 

Vorzugsweise wird die Einrichtung 11 eine Folge von Fla- 
cheninf ormationen-Zeit-Werten erzeugen und einer Einrich- 
tung 12 zum Nachverarbeiten zufuhren, die ausgebildet ist, 
urn einen nachverarbeiteten Merkmalsvektor auszugeben oder 
15 eine Spracherkennung, eine Musikinstrumentenerkennung, eine 
Melodieerkennung, eine Polyphonklangerkennung oder irgend 
eine sonstige Erkennung von Inf ormationen durchzuf tihren, 
die in dem Inf ormationssignal, das in die Einrichtung 10 
eingespeist wird,, enthalten sind. 

20 

Zur Bestimmung von lokalen Extremwerten durch die Einrich- 
tung 10 konnen beliebige bekannte Konzepte hierfiir verwen- 
det werden, wie z. B. ein ublicher Minima-Maxima- 
Suchalgorithmus, der einen Abtastwert des Inf ormationssig- 

25 nals mit dem vorherigen Abtastwert des Inf ormationssignals 
vergleicht und dann ein lokales Maximum erkennt, wenn der 
zeitlich spatere Abtastwert kleiner als der zeitlich friihe- 
re Abtastwert ist, und wenn vorher ein lokales Minimum war. 
Der Algorithmus erkennt ferner ein lokales Minimum, wenn 

3 0 der zeitlich friihere Abtastwert grofier als der zeitlich 
spatere Abtastwert ist, und wenn vorher ein lokales Maximum 
war. Alternativ kann der Maxima/Minima-Sucher auch ausge- 
bildet sein, urn mehrere auf einanderf olgende Abtastwerte 
entsprechend auszuwerten. Urn nicht durch ein dem Informati- 

35 onssignal iiberlagertes Rauschen beeintrachtigt zu werden, 
kann die Einrichtung 10 ferner ausgebildet sein, urn vor der 
Maxima/Minima-Suche eine Tief pafif ilterung des Informations- 
signals durchzuf uhren, um ein glatteres Inf ormationssignal 
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zu erhalten. Selbstverstandlich sind beliebige andere Mog- 
lichkeiten denkbar, wie z. B. das Durchfiihren eines Poly- 
nomfits an das Inf ormationssignal und das analytische 
Bestimmen von Extremwerten unter Verwendung der Polynomfit- 
5 funktionen. Alternativ konnte auch das direkt vorliegende 
ungef ilterte Inf ormationssignal verwendet werden, urn samt- 
liche Maxima und Minima zu bestimmen, und urn dann nachtrag- 
lich die Berge oder Taler mit einem kleineren Flacheinhalt 
als einem vorgegebenen Schwellwert herauszuf iltern bzw. in 
10 der weiteren Inf orrnationssignal-Charakterisierung nicht 
mehr zu verwenden. 

Die Einrichtung 11 zum Ermitteln von Flachen- bzw. Volumen- 
inf ormationen fur Berge und Taler wird typischerweise als 
numerischer Integrator ausgebildet sein, um die Flache zwi- 
schen dem Inf ormationssignal und der oberen Talbegrenzung 
bzw. der unteren Bergbegrenzung zu berechnen. Im Falle von 
ubereinanderliegenden Bergen oder Talern ist die Einrich- 
tung 11 zum Ermitteln von Flachen- bzw. Volumeninf ormatio- 
nen ausgebildet, um zu berucksichtigen, daft unter dem "Tal" 
bereits ein anderes "Tal" liegt. Als Basislinie zur Integ- 
ration wird dann die obere Begrenzungslinie des darunter- 
liegenden Tals, also beispielsweise die Linie 48 von Fig. 4 
verwendet. Die Flache AB2 berechnet sich also unter Verwen- 
dung der seitlichen Begrenzung der Flache AB2 , die durch 
das Inf ormationssignal gegeben ist und unter Verwendung der 
Basislinie 48 und der oberen Begrenzung der Flache AB2 , die 
in Fig. 4 mit 4 9 dargestellt ist und gewissermafien den 
"Wasserstand" definiert, der durch das lokale Maximum 41c 
festgelegt ist. 

Im nachf olgenden wird auf unterschiedliche Ausgestaltungen 
der Einrichtung 12 zum Nachverarbeiten der Folge von Fla- 
cheninf ormationen bzw . Volumeninf ormationen eingegangen . 
35 Wie es bereits ausgefuhrt worden ist, eignet sich das er- 
f indungsgemafte Konzept insbesondere zur Segmentierung von 
Inf ormationssignalen auf der Basis der berechneten Volumen- 
inf ormationen . In Fig. 4 sind zwei Replika A und B der Sig- 
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nalform dargestellt. Es ergeben sich Kombinationspaare 
gleicher oder geringfiigig abweichender Volumina. Im nicht- 
invertierten Signal sind dies die Kombinationspaare (AO, 
BO) , (Al, Bl) . 

5 

Im invertierten Signal, also hinsichtlich der Berge, erge- 
ben sich folgende Kombinationspaare (AO 1 , BO 1 ), (Al 1 , Bl f ) , 
(A2 T , B2'), (B21 f , A21 T ), (A210 1 , B210 1 )- 

10 Die prozentuale Schwankung AF/F ist fur grofte eingeschlos- 
sene Flachen geringer, so daft besonders bei Rauschen die 
Flacheninf ormationsvergleiche grolier Flachen eine verlaiili- 
chere Schatzung auf Identitat sind. Ein Beispiel hierfiir 
ist das Kombinationspaar (A210 1 , B210')- Die repetitiven 

15 Volumina/Flachensequenzen (A210 f __n, AB2_n, B210'_n) weisen 
auf das Vorliegen einer bestimmten Signalform hin. Der ge- 
samte Inf ormationssignalverlauf wird somit auf der Basis 
der Folge von Flacheninf ormationen in m Sequenzen von Fla- 
chen- bzw. Voluminaintervallen unterteilt, woraufhin Fla- 

20 chen- bzw. Voluminasequenzen zu Abschnitten der gleichen 
Informationssignalf orm zusammengef aJ5t werden. Eine Flachen- 
bzw. Voluminahullkurve wird bestimmt, indem der Aufbau der 
Wellensignalform sich langsam vollzieht, wobei die Flachen 
bzw. Volumina gleicher repetitiver Sequenzen in einer An- 

25 stiegsphase ansteigen, dann in einer Sustainphase annahernd 
gleich bleiben und dann in einer Abklingphase langsam ab- 
nehmen. An dieser Stelle sei darauf hingewiesen, daB typi- 
sche Tone von Musikinstrumenten eine Anstiegsphase, eine 
Sustainphase und eine Abklingphase haben. So ware bei- 

30 spielsweise bei einem Klavier, bei dem eine Saite durch den 
Aufschlag eines Hammerchens angeregt wird, die Anstiegspha- 
se relativ kurz . Die Sustainphase ware ebenfalls relativ 
kurz, wahrend die Abklingphase relativ lang dauern wiirde . 

35 Eine Intervallgrenze ergibt sich dann, wenn sich Flachen 
bzw. Volumina abrupt andern. 
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Erfindungsgema.fi kann auf der Basis der Folge von Flachen- 
bzw. Voluminainformationen auch eine Frequenzbestimmung 
durchgefuhrt werden. Die Frequenz des Wiederholungsmusters 
wird bestimmt, indem die Abstande der lokalen Maxima bzw. 
5 lokalen Minima auf einanderf olgender gleicher oder nur ge- 
ringfiigig unterschiedlicher Flachen bzw. Volumina in der 
Form beispielsweise ( (AO, BO) , Al, Bl) ) gebildet werden, 
und wenn im invertierten Signal die Abstande ((AO 1 , BO 1 ), 
(Al f , Bl f ), (A2 1 , B2 1 )/ (A21 f , B21 ' ) , (A210 1 , B210 1 ) gebil- 
10 det werden. 

Das gewissermaften entstehende Relief auf einanderf olgender 
Bergkuppen und Talsohlen wird durch die Bestimmung des Re- 
pititionsmusters der Form (A210 1 , AB2, B210 f ) ermittelt. 
15 Das Feinprofil eines Bergkamms oder einer Talsohle wird 
durch die Angabe der strukturierenden Elemente AO, Al und 
AO', Al f , A2 1 , A21 T bestimmt. 

Erf indungsgemaft ist die Einrichtung 12 zum Nachverarbeiten 
20 ferner ausgebildet, um jeder Flacheninf ormation oder Volu- 
meninf ormation einen Vektor zuzuweisen, der vorzugsweise 
den Zahlenwert des Flacheninhalts bzw. Volumeninhalts und 
den Zeitwert des Auftretens umfafit. Als Zeitwert des Auf- 
tretens kann irgend ein Zeitwert des zeitlichen Abschnitts 
25 genommen werden. Es wird bevorzugt, einem Flacheninhalt den 
Zeitpunkt des Auftretens des lokalen Extremwerts zuzuord- 
nen, der dem Flacheninhalt zugeordnet ist. Bedingt ein lo- 
kaler Extremwert, wie z. B. der lokale Extremwert 45b von 
Fig. 4 zwei in Fig. 4 gezeigte "Berge" Al ' , A2 1 , so wird 
30 den Flacheninf ormationen Al 1 , A2 1 derselbe Zeitwert zuge- 
ordnet, namlich der Zeitwert des Auftretens des lokalen Mi- 
nimums 45b. 

Damit entsteht ein Zahlenfeld von n Vektoren langs der 
35 Zeitachse. Solche Sequenzen von Vektoren konnen mit DNA- 
Sequencing-Methoden mit bestehenden Volumenvektoren, die in 
einer Musikdatenbank gespeichert sind, verglichen werden, 
um liber Identif ikationen, die den einzelnen Vektoren in der 



WO 2004/010327 



17 



PCT/EP2003/001916 



Musikdatenbank zugeordnet sind, beispielsweise eine Infor- 
mationssignal-Identif ikation durchzuf iihren . 

Werden die Informationssignale, wie z. B. Audiosignale un- 
5 terschiedlicher Aufnahmen, normiert, so kdnnen Flachen- 
bzw. Voluminasequenzen direkt miteinander verglichen wer- 
den. Mit einer Frequenzbestimmung konnen Flachen bzw. Volu- 
mina, die die gleiche Audiosignalf orm haben, aber durch die 
f requenzabhangige Zeitdehnung dennoch unterschiedliche Fla- 
10 chen bzw. Volumina aufweisen, miteinander in Bezug gesetzt 
werden . 

Aus den Volumina bzw. Flachen und der Lage der Maxima bzw. 
Minima konnen erf indungsgemaB weitere Flachenform- 

15 beschreibende Parameter, wie z. B. die longitudinale Aus- 
dehnung, durch die Einrichtung 12 zum Nachverarbeiten von 
Fig. 1 bestimmt werden. Solche weiteren Parameter erlauben 
eine Aussage, ob es sich beispielsweise urn Sprachlaute oder 
von Musikinstrumenten evozierte Signale handelt. In dem In- 

20 f ormationssignal selbst konnen vorzugsweise durch die Ein- 
richtung 12 zum Nachverarbeiten lediglich relative Flachen 
bzw. Volumina verwendet werden, indem durch die Einrichtung 
12 zum Nachverarbeiten das Verhaltnis auf einanderf olgender 
Flachen bzw. Volumina gebildet wird. 

25 

Allgemein gesagt haben Sprachlaute, Polyphonklange oder von 
Musikinstrumenten evozierte Monophonklange voneinander ab- 
weichende Audiosignalf ormen und sind daher anhand der Fla- 
chen- bzw. Voluminasequenzen unterscheidbar . Der frequenz- 

30 abhangige Anteil einer gleichen Audiosignalf orm wird eben- 
falls durch eine Anderung der Flachen bzw. Volumina be- 
stimmt. 1st einem Sprachlaut (Vokal) eine insgesamte Flache 
eindeutig zuordenbar, so konnen Vokalabschnitte aus dem In- 
formations signal herausgelesen werden. Ebenfalls konnen 

35 Konsonanten und Ubergangsabschnitte durch Angabe der Fla- 
chen- bzw. Voluminasequenzen unter Verwendung der Einrich- 
tung 12 zum Nachverarbeiten bestimmt werden. Dasselbe 
trifft fur Polyphonklange wie auch fur Melodief olgen zu . 
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Fig. 2 zeigt eine Vorrichtung gemaB einem weiteren Aspekt 
der vorliegenden Erfindung, die zum Aufbau einer Informati- 
onssignal-Datenbank dient. In eine Vorrichtung 20 zum Cha- 
5 rakterisieren, die prinzipiell so aufgebaut sein kann, wie 
es in Fig. 1 dargestellt ist, werden auf einanderf olgend 
mehrere Inf ormationssignale unter der Steuerung einer Steu- 
ereinrichtung 21 eingespeist, urn fiir jedes der mehreren In- 
f ormationssignale einen Merkmalsvektor zu bestimmen, der 

10 von den Flachen- bzw. Voluminainf ormationen abgeleitet ist. 
Damit kann eine Inf ormationssignaldatenbank 22 aufgebaut 
werden, deren Kernstuck ein Speicher 23 ist, in dem die 
Merkmalsvektoren (MM1, MM2 , MM3) der in die Einrichtung 20 
eingespeisten Inf ormationssignale jeweils in Zuordnung zu 

15 bestimmten Identif ikatoren (ID1, ID2, ID3) gespeichert 
sind. Die Identif ikatoren IDl, ID2, ID2 erlauben eine Iden- 
tifikation der Inf ormationssignale, deren Merkmalsvektoren 
MM1 , MM2 , MM3 in der Inf ormationssignaldatenbank und insbe- 
sondere in dem Speicher 23 der Inf ormationssignaldatenbank 

20 abgelegt sind. Eine Inf ormationssignaldatenbank ist urn so 
universeller, je mehr einzelne Inf ormationssignale durch 
die Vorrichtung 20 zum Charakterisieren verarbeitet worden 
sind und in entsprechender Form, also mittels eines diesel- 
ben jeweils charakterisierenden Merkmalsvektors, im Spei- 

25 cher vorhanden sind. 

Fig. 3 zeigt eine erf indungsgemaiie Vorrichtung zum Identi- 
fizieren eines Test-Inf ormationssignals anhand einer Infor- 
mationssignaldatenbank 22, die prinzipiell genauso aufge- 

30 baut sein kann, wie die anhand von Fig. 2 beschriebene In- 
f ormationssignaldatenbank. Hierzu wird in die Vorrichtung 
20 zum Charakterisieren ein Test-Inf ormationssignal einge- 
speist, das zu identif izieren ist, bzw. von dem eine Iden- 
tifikation in Hinblick auf bestimmte Merkmale desselben in 

35 qualitativer und/oder quantitativer Hinsicht erlangt werden 
soil. Durch die Einrichtung 20 zum Charakterisieren wird 
aus dem Test-Inf ormationssignal ein Test-Merkmalsvektor er- 
mittelt, der das Test-Inf ormationssignal charakterisiert . 
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Mit diesem Test-Merkmalsvektor wird dann eine Suche in der 
Informationssignal-Datenbank unter den im Speicher 23 ge- 
speicherten Merkmalsvektoren MM1 , MM2 , MM3 durchgef iihrt, urn 
am Ausgang der Inf ormationssignal-Datenbank eine Aussage 
5 iiber das Test-Inf ormationssignal zu erhalten. 

Die Aussage iiber das Test-Inf ormationssignal, die durch die 
in Fig. 3 gezeigte Vorrichtung zum Identif izieren des Test- 
Informationssignals geliefert wird, kann beispielsweise ei- 

10 ne tatsachliche Bestimmung des Autors Oder Urhebers des In- 
formationssignals sein. Eine Aussage kann jedoch auch eine 
quantitative Aussage sein, dahingehend, daJ5 das Test- 
Informationssignal beispielsweise eine bestimmte Anzahl von 
Vokalen oder Konsonanten enthalt. In diesem Fall waren die 

15 Merkmalsvektoren MMl , MM2 , MM3, die in der Inf ormationssig- 
nal-Datenbank gespeichert sind, Merkmalsvektoren einzelner 
Vokale oder Konsonanten. Nachdem der Merkmalsvektor , der 
durch die Vorrichtung zum Charakterisieren 2 0 erzeugt wer- 
den kann, ein quantitativer Merkmalsvektor ist, und nachdem 

20 in diesem Fall die in der Inf ormationssignal-Datenbank ab- 
gespeicherten Merkmalsvektoren ebenfalls quantitative Merk- 
male sind, konnen auch quantitative Aussagen iiber das Test- 
Informationssignal getroffen werden, namlich dahingehend, 
dafl es einen bestimmten Ahnlichkeitsgrad zu einem Informa- 

25 tionssignal hat, das anhand seines Merkmalsvektors in der 
Inf ormationssignal-Datenbank vorliegt . 

Fig. 5 zeigt ein beispielhaf tes Signalf ormdiagramm, das 
sich ergibt, wenn der Vokal "o" bei einer Frequenz von etwa 

3 0 100 Hz durch den Erfinder gesprochen wird. Entlang der Ko- 
ordinate ist in Fig. 5 die Amplitude normiert auf Werte 
zwischen - 1,0 und 1,0 aufgetragen. Entlang der Abszisse 
ist in Fig. 5 die Zeit in Sekunden aufgetragen. Es zeigt 
sich, daS der Vokal "o" ein stark repetitives Signalmuster 

3 5 hat, das sehr ahnliche Flachen- bzw. Volumeninf ormationen- 
Sequenzen aufweist. Im einzelnen ist zu sehen, daS sich die 
Sequenz von Flacheninf ormationen VI, V2 periodisch wieder- 
holt . 
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Durch Feststellen dieser Sequenz VI, V2 in der zeitlichen 
Folge von Volumeninf ormationen wird erf indungsgemaS eine 
Segmentierung durchgef iihrt , beispielsweise bei dem lokalen 
5 Maximum, das die mit V2 bezeichneten Flacheninf ormationen 
bestimmt und in Fig. 5 mit 50 bezeichnet ist. 

Alternativ konnte eine Segmentierung auch bei einem lokalen 
Minimum, wie z. B. dem Maximum 50 lokalbenachbarten Minimum 
10 oder dem wieder nach links benachbarten lokalen Maximum 
vorgenommen werden, das das Tal identif iziert , das mit VI 
bezeichnet ist . 

Anhand der Fig. 5 ist ferner zu sehen, dafi die Flachenin- 
15 f ormationen VI das gesamte linke Tal der Signalform umfas- 
sen. Das durch VI identif izierte Tal umfaSt somit die Fla- 
cheninf ormationen der beiden Taler unterhalb der gestri- 
chelten Linie 51 sowie die Flacheninf ormationen zwischen 
der Linie 51 und der oberen Begrenzungs linie, die durch. ein 
20 lokales Maximum 52 definiert ist. Aus Fig. 5 ist ersicht- 
lich, dag entweder Sequenzen von einzelnen Flacheninf orma- 
tionen von Talern oder Bergen verwendet werden konnen, oder 
dafi zur Segmentierung auf der Basis von auftretenden Fla- 
cheninf ormat ions sequenz en auch "kombinierte n Taler/Berge 
25 genommen werden konnen, wie z. B. das durch VI identif i- 
zierte Tal . 

Bei einem weiteren bevorzugten Ausfuhrungsbeispiel der vor- 
liegenden Erfindung wird neben den Flachen/ Volumeninf orma- 

30 tionen auch die Hoheninf ormat ion berucksichtigt . Dieses 
Konzept hat wiederum sein Analogon in der Geodasie, wenn 
namlich nicht nur die Wassermenge in einem Tal berucksich- 
tigt wird, sondern die potentielle Energie dieser Wasser- 
mengen in dem Tal. Damit ist eine Hyperf einstruktur des 

3 5 Signals angebbar, indem zusatzlich der Energieterm der po- 
tentiellen Energie angegeben wird. Die potentielle Energie 
ist gleich dem Produkt aus Dichte, Volumen, Beschleunigung 
und Hohe. Ferner kann eine gewissermaSen kompressionslose 
Flussigkeit angenommen werden. Dariiber hinaus werden die 
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Dichte und die Beschleunigung konstant angenommen und so 
eingestellt, daB sich die Lageenergie eines "Wasserspei- 
chers" aus dem integralen Produkt aus eingeschlossenen Vo- 
lumen und Hohe errechnet. Die Energie des in dem mit VI be- 
5 zeichneten Tal in Fig. 5 kann durch Zerlegen des Tals in 
kleine Rechtecke berechnet werden, wobei die Flache jedes 
Rechtecks vor der Auf summation mit der Hohe dieses Recht- 
ecks, also der Amplitude, die diesem Rechteck zugeordnet 
ist, multipliziert wird. 

10 

Damit werden holier gelegene Volumina starker gewichtet, 
wahrend Rauschen urn die Nullinie weniger stark gewichtet 
wird. Die Gewichtung hoher gelegenen Flacheninf ormationen 
durch Miteinbeziehung der entsprechenden Hohe entspricht 
15 dem ublichen Wesen von Musiksignalen, bei denen laute Sig- 
nalanteile die Tendenz besitzen, hoher inf ormationstragend 
zu sein als leise Signalanteile . 

Ein Signal mit starkerer Amplitude tragt somit mehr Infor- 
20 mationen als ein Signal mit schwacherer Amplitude. Diesem 
Aspekt wird durch die Gewichtung der Folge von Flachenin- 
formationen mit entsprechenden Hoheninf ormationen, urn ge- 
wissermafien die potentielle Energie eines in einem Tal be- 
findlichen Wassers zu erhalten, Genxige getan. 

25 

1m nachf olgenden wird ferner auf ein bevorzugtes Ausfuh- 
rungsbeispiel beispielsweise zum Berechnen der Flache Al 
von Fig. 4 eingegangen. Vorzugsweise wird die Flache Al 
derart berechnet, daE zumindest die Flache des Rechtecks 

3 0 berechnet wird, das sich durch die obere Begrenzungslinie 
42, eine untere Begrenzungslinie, die durch das lokale Mi- 
nimum 45b geht, sowie die beiden in Fig. 4 eingezeichneten 
gestrichelten Seitenlinien ergibt . Darauf hin wird eine nor- 
male Integration des Signals vom lokalen Maximum 41b bis 

35 zum Punkt 44 durchgefuhrt , wobei als Nullinie der Funktion 
die Linie genommen wird, die durch das lokale Minimum 45b 
verlauft. Die dadurch erhaltene Flache wird dann von der 
ursprunglich berechneten Rechtecks flache subtrahiert, urn 
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schlieElich die Flache Al des Tals zu erhalten, das durch 
das lokale Maximum 41b definiert ist. 

Es sei darauf hingewiesen, daS zur Berechnung der Flachen 
5 der Berge nicht eine erneute Integration uber das Informa- 
tions signal durchgefiihrt werden muE, sondern date eine ein- 
malige Integration ausreichend ist, um dann anhand des Kur- 
venintegrals und verschiedener Rechtecke samtliche Flachen- 
informationen der Taler bzw. Berge zusammenzustellen. 

10 

Wie es bereits ausgefuhrt worden ist, ist der Vokal "o" in 
Fig. 5 etwa bei 100 Hz gesprochen worden. Wiirde der Vokal 
bei einer hoheren Frequenz gesprochen werden, so wiirde sich 
ein zwar ahnliches Zeitdiagramm ergeben, das jedoch hin- 
15 sichtlich der Zeitachse gestaucht ist. Wiirde der Vokal da- 
gegen mit einer niedrigeren Frequenz aus 100 Hz gesprochen 
werden, so wiirde sich ein prinzipiell zu Figur 5 ahnliches 
Zeitdiagramm ergeben, das jedoch um einen entsprechenden 
Faktor, der von der Frequenz di f f erenz abhangt, gedehnt ist. 

20 

Zur Frequenz -Amplitudennormierung wird daher erf indungsge- 
maS ein bei einer Normf requenz , wie z. B. 100 Hz, gespro- 
chener Vokal in der Inf ormationssignaldatenbank 22 von Fig. 
3 anhand seines Merkmalsvektors und seiner Identif ikation 

25 abgelegt. Ein Testsignal, von dem nicht bekannt ist, bei 
welcher Frequenz es gesprochen worden ist, wird dann inner - 
halb der Inf ormationssignaldatenbank hinsichtlich seines 
Test -Merkmalsvektors (Fig. 3) einem Sweep uber der Frequenz 
unterzogen. Dies bedeutet, dafi der Signalverlauf des Test- 

30 signals, der Signalverlauf des in der Inf ormationssignalda- 
tenbank abgespeicherten Signals oder beide Signale oder 
Merkmalsvektoren entsprechend gestaucht bzw. gedehnt wer- 
den, um bei jedem Stauchungs faktor z. B. anhand der Methode 
der kleinsten Fehlerquadrate eine Uber e ins timmung festzu- 

35 stellen. Damit kann ermittelt werden, ob iiberhaupt zu ir- 
gendeinem Zeitpunkt des Frequenz -Sweeps eine ausreichend 
gute Ubereinstimmung stattgefunden hat. Wird dies verneint, 
so umfaSt das Test-Inf ormationssignal beispielsweise keinen 
gesprochenen Vokal "o" . Wird dagegen bei einer bestimmten 
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Einstellung im Frequenz -Sweep eine ausreichend gute tiber- 
einstimmung f estgestellt , so kann davon ausgegangen werden, 
daS im Test- Informations signal ein gesprochener Vokal "o" 
vorliegt, und daS dieser gesprochene Vokal bei einer be- 
5 stimmten Frequenz gesprochen worden ist. 

Es sei darauf hingewiesen, dag sich durch die Deh- 
nung/ Stauchung des Merkmalsvektors oder, wenn die Deh- 
nung/Stauchung vor der Extraktion des Merkmalsvektors 

10 durchgefiihrt wird, zwar die absoluten Flacheninf ormationen 
verandern. Gleich bleiben jedoch die Relationen der Fla- 
chen/Volumeninf ormationen zueinander, so daS eine Deh- 
nung/ Stauchung an der Zeitachse keine Auswirkung auf Se- 
quenzen von Flacheninf ormationen dahingehend hat, da£ diese 

15 nicht mehr identif iziert werden konnten. 

Eine analoge Vorgehensweise wird im Hinblick auf eine Amp- 
litudennormierung erf indungsgemafi eingesetzt. Wird der ge- 
sprochene Vokal "o" von Fig. 5 mit einer bestimmten mittle- 
20 ren Lautstarke in der Inf ormationssignaldatenbank 22 von 
Fig. 3 abgespeichert, so kann eine Dehnung/ Stauchung (Ver- 
starkung/Dampfung) entlang der Amplituden-Achse mit darauf - 
folgender Fehlerquadratmethode durchgefuhrt werden, um ers- 
tens f estzustellen, ob der Vokal uberhaupt in einem Test- 

2 5 Inf ormat ions signal vorhanden ist, und um zweitens festzu- 

stellen, mit welcher Lautstarke der Vokal im Test- 
Informations signal aufgetreten ist. Bestimmte Suchstrate- 
gien zur einzelnen oder kombinierten Veranderung, d.h. Deh- 
nung/ Stauchung entlang der Zeitachse und der Amplitudenach- 

3 0 se, wird auf den Stand der Technik im Hinblick auf DNA- 

Sequencing-Konzepte oder auf Methoden der kleinsten Fehler- 
quadrate verwiesen, um beispielsweise die minimale Metrik 
bzw. den nachsten Nachbar ("Next Neighbor") zu bestimmen. 

3 5 Alternativ kann zur Frequenz /Amplituden-Kalibrierung eine 
Inf ormationssignaldatenbank 22 geschaffen werden, bei der 
die einzelnen Merkmalsvektoren mit bestimmten Lautstar- 
ke / Frequenz - E ins t e 1 lungen e ine s Mefisy s terns auf ge z e i chne t 
worden sind. Sofern ein Zugriff hierauf besteht, konnen 
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dieselben Einstellungen z. B. hinsichtlich der Lautstarke, 
von dem Test- Informations signal gefordert werden. Hierauf 
kann eine Kennlinie abgeleitet werden, urn Fla- 
chen/Volumeninformationen eines beispielsweise bei 140 Hz 
5 gesprochenen Vokals "o" in Flachen/Volumeninf ormationen bei 
der vorbestimmten Aufnahmee ins tel lung, wie z. B. einer Fre- 
quenz von 100 Hz, umzureclinen bzw. abzubilden. 

Schliefilich wird darauf hingewiesen, da£ stark signifikante 

10 Merkmale eines Audiosignals als Beispiel fur ein Informati- 
onssignal in grofien Volumen/Flacheninf ormationen liegen. 
Solche groSen Volumen/Flacheninf ormationen ergeben sich 
durch Summation der Flacheninf ormationen AB1, AB2 , B0 von 
Fig. 4. Das gesamte Tal, das durch AB2 , AB1 , B0 definiert 

15 ist, erhalt seine Hohenbegrenzung 49 aufgrund des lokalen 
Maximums 41c. Durch Auf addition der Taler, die durch lokale 
Maxima mit kleinerer Amplitude definiert sind, wie z. B. 
des lokalen Maximums 41d, wird die gesamte Flache des durch 
die Begrenzungslinie 49 nach oben begrenzten Tals erhalten. 

20 Entsprechend wird fur die Taler des invertierten Signals, 
d.h. die Berge des nicht- invertierten Signals vorgegangen. 
Der Berg, der insgesamt das erste Segment A identif iziert , 
ergibt sich aus den Flacheninf ormationen A210 1 , AO 1 , A21 ! , 
Al 1 , A2 1 . Durch Ermitteln der Flacheninf ormationen eines 

25 gesamten Bergs oder eines gesamten Tals kann erf indungsge- 
maS eine Segmentierung mit verlaSlichen Ergebnissen durch- 
gefuhrt werden, da solche groBen Flacheninf ormationen fur 
Berge oder Taler fur die Grobstruktur, d.h. fur die repeti- 
tive Struktur des Informat ions signal s , charakteristisch 

3 0 sind. 

Als weiteres Merkmal oder Feature wird es bevorzugt, die 
Flachen/Volumeninf ormationen einer einzelnen Sequenz VI, V2 
von Fig. 5 zu addieren, urn eine Gesamtflache der Sequenz zu 
35 erhalten, mit der eine Suche in einer Datenbank unternommen 
werden kann, in der Gesamtf lachen von bekannten Sequenzen 
gespeichert sind. Das Feature der Gesamtflache ist zwar fur 
ein Signal weniger charakteristisch, ist dafiir jedoch star- 
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ker kompritniert , so daS eine kleinere Musikdatenbank und 
eine schnellere Suche moglich. sind. Dieses Feature ist dann 
ausreichend, wenn es noch ausreichend charakteristiscli ist. 
An diesem Beispiel zeigt sich die einfach erreichbare Ska- 
5 lierbarkeit zwischen dem Merkmale der Charakterisierung und 
dem Speicherplatzmerkmal des erf indungsgemafien Konzepts. 

Alternativ oder zusatzlich zu der Gesamtf lache konnte auch 
die Gesamtenergie einer Sequenz VI, V2 von Fig. 5 einge- 
10 setzt werden. Fur das Energief eature gel ten die vorstehen- 
den Ausfuhrungen ebenso. 

Die erf indungsgemafien Vorrichtungen und Verfahren konnen 
vorteilhaf terweise um eine Normierung erganzt werden. Die 

15 Normierung ist insbesondere giinstig, wenn ein Signal einer 
Merkmals-Extraktionsprozedur gemaft der vorliegenden Erfin- 
dung unterzogen wird, um als Merkmal z. B. eine Folge von 
Volumeninf ormationen bzw. Flacheninf ormationen zu erhalten, 
wobei diese Folge, wenn sie eine wiederkehrende Sequenz in 

20 einem Signal ist, wie sie durch vorstehend beschriebene 
Segmentierungsalgorithmen erhalten werden kann, als Urvek- 
tor bezeichnet wird. Wenn z. B. ausgegangen wird, dafi ein 
Urvektor eines Signals in einer Datenbank zu Vergleichszwe- 
cken abgespeichert ist, so wurde zur Gewinnung dieses Ur- 

25 vektors ein bestimmter Pegel bzw. eine bestimmte Lautstarke 
des Musiksignals verwendet, um den Urvektor zu generieren. 
Ein Vergleich eines Urvektor, der aus einem Testsignal ab- 
geleitet worden ist, mit dem in der Datenbank gespeicherten 
Urvektor ist dann ohne weiteres moglich, wenn das Testsig- 

30 nal mit den selben Amplitudenverhaltnissen vorliegt, wie 
das Vergleichssignal, von dem der in der Datenbank gespei- 
cherte Urvektor abgeleitet worden ist. In anderen Worten 
ausgedriickt bedeutet dies, dali ein Urvektor-Vergleich ohne 
weiteres moglich ist, wenn die beiden Signale identische 

35 Signalverlaufe A(t) haben. 

Problematisch wird dies jedoch, wenn das Testsignal, dessen 
Urvektor mit einem in der Datenbank gespeicherten Urvektor 
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verglichen werden soil, lauter abgespielt wird oder leiser 
abgespielt wird. Mathematisch ausgedruckt bedeutet dies, 
dafi das Signal A(t), das dem Urvektor in der Datenbank 
zugrunde liegt, nicht gleich dem Testsignal ist, sondern 
5 daft das Testsignal ein c-faches des Signals ist, also mit 
c-A(t) beschrieben werden kann, wobei c groiier oder kleiner 
1 ist. Ist c groBer als 1, so ist das Testsignal lauter als 
das Datenbanksignal, von dem der Urvektor in der Datenbank 
gespeichert ist. Ist der Faktor c kleiner als 1 und selbst- 
10 verstandlich ungleich Null, so ist das Testsignal leiser 
als das Datenbanksignal. 

Erf indungsgemaft wird daher, urn einen Datenbank-Vergleich 
nicht an Lautstarkeunterschieden scheitern zu lassen bzw. 
15 zu erschweren, eine Normierung des Testsignals und vorzugs- 
weise auch des Datenbanksignals hinsichtlich des Urvektors 
vorgenommen . 

In Figur 6 ist ein beispielhaf ter Signalverlauf A(t) ge- 
20 zeigt. Ein nicht-normierter Urvektor wiirde die Voluminafol- 
gen bzw. Flachenf olgen V12, V23, . .., VI-1, I umfassen. Der 
Urvektor ware dann ein Vektor, der eine Voluminaf olge um- 
faftt sie vorzugsweise ein Segment ist, die jedoch auch ein 
Teil eines Segments sein konnte. 

25 

Wie es ausgefiihrt worden ist, ist bei einer Streckung des 
Testsignals urn einen Faktor c ein Vergleich mit einem ent- 
sprechenden Urvektor, der von einem Datenbanksignal abge- 
leitet worden ist, problematisch . 

30 

Es wird daher eine Normierung aller Komponenten des Urvek- 
tors vorgenommen, und zwar eine Normierung mit einem Nor- 
mierungswert, der gleich dem Gesamtvolumen aller Einzelvo- 
lumina einer Folge von Volumina entspricht. Das Gesamtvolu- 
35 men einer Folge bzw. eines Urvektors berechnet sich durch 
Addition aller Einzelvolumen in dem Urvektor. Fur das 
nicht-gestreckte Signal erhalt man 
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Vges « V12 + V23 + V34 +...+ Vn-l,n. 

Das Gesamtvolumen eines mit dem Streckungsf aktor c beauf- 
schlagten gestreckten Signals A f (t)=c-A(t) berechnet sich 
5 f olgendermaften : 

Vges = C-V12 + C-V23 + ... + c-Vn-l,n. 

Aus dem Vergleich des Gesamtvolumens fiir das gestreckte 
10 Signal Vges mit dem Gesamtvolumen des nicht-gestreckten 
Signal Vges ist zu sehen, daft diese iiber den Streckungsf ak- 
tor c multiplikativ zusammenhangen . Erf indungsgemaft wird 
daher eine Normierung jeder einzelnen Komponente Vi-1, i 
einer Folge von Volumina bzw. Flachen durch das Gesamtvolu- 
15 men bzw. die Gesamtflache der Folge vorgenommen. 

Aus dem gleichungsmaftigen Zusammenhang unterhalb des Dia- 
gramms in Figur 6 ist zu sehen, daft sich durch diese Nor- 
mierung der Streckungsf aktor c herauskiirzt, so daft ein nor- 

20 mierter Urvektor eine hinsichtlich der Lautstarke des Sig- 
nals invariante GroBe ist. in dieser Hinsicht wird es be- 
vorzugt, sowohl den Urvektor, der in der Datenbank gespei- 
chert ist, zu normieren als auch den Urvektor des Testsig- 
nals zu normieren. In diesem Fall sind beide Urvektoren ge- 

25 genuber jeglichen Amplitudenunterschieden, die durch eine 
multiplikative Streckung mit einem Faktor c beschrieben 
werden kann, invariant, so dafi Lautstarkeunterschiede zwi- 
schen einem Testsignal und einem Datenbanksignal unerheb- 
lich sind und eine Musikerkennung nicht beeintrachtigen . 

30 

An dieser Stelle sei darauf hingewiesen, daft ein Urvektor 
nicht unbedingt jedes auf einanderf olgende Volumen in einer 
Sequenz, die segmentiert worden ist , umfassen muss. Je 
nach Anwendung geniigt es auch, z. B. nur jedes zweite bzw. 
35 jedes dritte Volumen einer Sequenz abzuspeichern, urn den 
Speicherbedarf fiir die Urvektoren bzw. normierten Urvekto- 
ren zu verringern. In diesem Fall leidet jedoch auch die 
Aussagef ahigkeit, so daft hier ein Kompromift zu finden sein 
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wird. Sollte eine solcher "liickenhaf ter" Urvektor verwendet 
werden, so wird dieser genauso normiert durch das Gesamtvo- 
lumen des liickenhaf ten Urvektors bzw. die Gesamtf lache des 
liickenhaf ten Urvektors. Es ist jedoch lediglich wichtig, 
5 daii der in der Datenbank gespeicherte Urvektor, mit dem ein 
Test-Urvektor verglichen werden soil, die selbe „Liickenhaf- 
tigkeit" hat. 

Die erfindungsgemalien Verfahren zum Charakterisieren, zum 

10 Aufbauen einer Inf ormationssignal-Datenbank oder zum Iden- 
tifizieren eines Test-Inf ormationssignal anhand einer In- 
formations signal -Datenbank konnen je nach vorliegendem Be- 
darf in Hardware oder in Software implementiert werden. Die 
Implementation kann auf einem digitalen Speichermedium, 

15 insbesondere einer Diskette oder CD mit elektronisch aus- 
lesbaren Steuersignalen erfolgen, die so mit einem program- 
mierbaren Computers ys tern zusammenwirken konnen, daB das 
entsprechende Verfahren ausgefiihrt wird. Allgemein besteht 
die Erfindung somit auch in einem Computer- Programm-Produkt 

20 mit auf einem maschinenlesbaren Trager gespeicherten Pro- 
grammcode zur Durchfiihrung eines oder mehrerer der erfin- 
dungsgemaflen Verfahren, wenn das Computer-Programm-Produkt 
auf einem Rechner ablauft. In anderen Worten ausgedriickt 
ist die Erfindung somit ein Computer-Programm mit einem 

25 Programmcode zur Durchfiihrung des Verfahrens, wenn das Com- 
puter-Programm auf einem Computer ablauft. 
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Patentanspriiche 



1 . Vorrichtung zum Charakterisieren eines Informations- 
5 signals, das einen Amplituden-Zeit-Verlauf mit lokalen 

Extremwerten aufweist, mit folgenden Merkmalen: 

einer Einrichtung (10) zum Bestirnmen der lokalen Ex- 
tremwerte des Inf ormationssignals, wobei ein lokaler 
10 Extremwert durch einen Zeitpunkt und eine Amplitude 

definiert ist; und 

einer Einrichtung (11) zum Ermitteln von Flacheninf or- 
mationen von Talern oder Bergen des Inf ormationssig- 

15 nals im Falle einer eindimensionalen Amplitude des In- 

formations signals oder von Volumeninf ormationen von 
Talern oder Bergen des Inf ormationssignals im Falle 
einer zweidimensionalen Amplitude des Inf ormationssig- 
nals, wobei ein Tal oder Berg durch einen zeitlichen 

20 Abschnitt (42, 47) des Inf ormationssignals definiert 

ist, wobei sich der Abschnitt des Inf ormationssignals 
von dem Zeitpunkt eines lokalen Extremwerts (43) bis 
zu einem zeitlich benachbarten Wert (44) des Inf orma- 
tionssignals, der die gleiche Amplitude wie der lokale 

25 Extremwert aufweist, erstreckt, wobei die Flachenin- 

formationen oder Volumeninf ormationen von mehreren 
Bergen oder Talern fur das Inf ormationssignal charak- 
teristisch sind. 



3 0 2. Vorrichtung nach Anspruch 1, 

bei der die Einrichtung (10) zum Bestirnmen ausgebildet 
ist, um lokale Maxima des Inf ormationssignals zu 
bestirnmen, und 

35 

bei der die Einrichtung (11) zum Ermitteln von Fla- 
cheninf ormationen ausgebildet ist, um Flacheninf orma- 
tionen von Talern des Inf ormationssignals zu ermit- 



WO 2004/010327 



30 



PCT/EP2003/001916 



teln, wobei ein Tal durch einen zeitlichen Abschnitt 
des Informationssignals definiert ist, der sich von 
dem Zeitpunkt des lokalen Maximums bis zu einem zeit- 
lich benachbarten Wert des Informationssignals er- 
5 streckt, der die gleiche Amplitude wie das lokale Ma- 

ximum hat. 



3. Vorrichtung nach Anspruch 2, 



10 bei der die Einrichtung (11) zum Ermitteln von Fla- 

cheninf ormationen ausgebildet ist, urn Flacheninf orma- 
tionen uber ein Tal (AB2) des Informationssignals , das 
einem lokalen Maximum (41c) zugeordnet ist, das iiber 
einem Tal (AB1) des Informationssignals vorhanden ist, 

15 dem ein weiteres lokales Maximum (41d) mit kleinerer 

Amplitude als das eine lokale Maximum zugeordnet ist, 
so zu bestimmen, daft die Flacheninf ormationen des ei- 
nen Tals (AB2) zusammen mit den Flacheninf ormationen 
des anderen Tals (ABl) auf eine geometrische Flache 

20 zwischen dem Inf ormationssignal und einer oberen Be- 

grenzungslinie des einen Tals (AB2) hinweisen. 

4. Vorrichtung nach einem der vorhergehenden Anspriiche, 

25 bei der die Einrichtung (10) zum Bestimmen ausgebildet 

ist, urn lokale Minima des Informationssignals zu 
bestimmen, und 

bei der die Einrichtung (11) zum Ermitteln von Fla- 
3 0 cheninf ormationen ausgebildet ist, urn Flacheninf orma- 

tionen von Bergen des Informationssignals zu ermit- 
teln, wobei ein Berg durch einen zeitlichen Abschnitt 
des Informationssignals definiert ist, der sich von 
dem Zeitpunkt des lokalen Minimums bis zu einem zeit- 
35 lich benachbarten Wert des Informationssignals er- 

streckt, der die gleiche Amplitude wie das lokale Mi- 
nimum hat . 
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5. Vorrichtung nach Anspruch 4, 

bei der die Einrichtung (11) zum Ermitteln von Fla- 
cheninf ormationen ausgebildet 1st, urn Flacheninforma- 
5 tionen liber einen Berg (Al ' ) des Inf ormationssignals , 

der einem ersten Minimum (45b) zugeordnet ist, der li- 
ber einem Berg (A21 T ) des Inf ormationssignals vorhan- 
den ist, dem ein zweites Minimum (45a) mit kleinerer 
Amplitude als das erste Minimum (45b) zugeordnet ist, 
10 so zu bestimmen, daJi die Flacheninf ormationen des ers- 

ten Bergs zusammen mit den Flacheninf ormationen des 
zweiten Bergs auf eine geometrische Flache zwischen 
dem Inf ormationssignal und einer unteren Begrenzungs- 
linie des ersten Bergs (A21') hinweisen. 



15 



Vorrichtung nach einem der vorhergehenden Anspruche, 



bei der die Einrichtung zum Ermitteln ausgebildet ist, 
um als Flacheninf ormationen die geometrische Flache 
20 eines Tals oder Bergs , das bzw. der einem lokalen Ex~ 

tremwert zugeordnet ist, zu berechnen. 

7. Vorrichtung nach einem der vorhergehenden Anspruche, 

25 bei der die Einrichtung (11) zum Ermitteln ausgebildet 

ist, um den Flacheninf ormationen fur ein Tal oder ei- 
nen Berg einen Zeitwert zuzuweisen, der dem zeitlichen 
Abschnitt, wodurch den das Tal oder der Berg definiert 
ist, entnommen ist, durch eine Folge von Flacheninf or- 

30 mationen-Zeitwert-Tupeln entsteht. 

8. Vorrichtung nach Anspruch 7, 



35 



bei der der Zeitwert der Zeitpunkt des lokalen Ex- 
tremswerts ist, der dem Tal oder dem Berg zugeordnet 
ist . 
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9. Vorrichtung nach einem der vorhergehenden Anspriiche, 

bei der die Einrichtung (11) zum Ermitteln ausgebildet 
ist, um als Flacheninf ormationen quantitative Werte zu 
ermitteln . 

10. Vorrichtung nach Anspruch 9, 

die ferner folgendes Merkmal aufweist: 

eine Einrichtung (12) zum Nachverarbeiten der Flachen- 
inf ormationen von mehreren Bergen Oder Talern. 

11- Vorrichtung nach Anspruch 10, 

15 

bei der die Einrichtung (12) zum Nachverarbeiten aus- 
gebildet ist, um Berge oder Taler, deren Flacheninf or- 
mationen kleiner als ein vorbestimmter Schwellenwert 
sind, bei einer weiteren Verarbeitung zu unterdriicken . 



10 



20 



12. Vorrichtung nach Anspruch 10 oder 11, 



bei der die Einrichtung (12) zum Nachverarbeiten aus- 
gebildet ist, um eine Folge von Flacheninf ormations- 
25 veranderungen durch Bestimmen eines Verhaltnisses von 

j eweils zeitlich auf einanderf olgenden Flacheninf orma- 
tionen oder durch Bilden einer Differenz zwischen zwei 
j eweils auf einanderf olgenden Flacheninf ormationen zu 
ermitteln . 



30 



13. Vorrichtung nach Anspruch 10, 11 oder 12, 



bei der die Einrichtung (12) zum Nachverarbeiten aus- 
gebildet ist, um die Folge von Flacheninf ormationen 
35 nach sich wiederholenden Sequenzen von Flacheninf orma- 

tionen zu untersuchen. 
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14. Vorrichtung nach Anspruch 13, 



bei cier die Einrichtung (12) zum Nachverarbeiten aus- 
gebildet ist, urn das Inf ormationssignal gemaJJ sich 
5 wiederholenden Sequenzen zu segmentieren . 



15. Vorrichtung nach einem der Anspruche 10 bis 14, 

bei der die Einrichtung (12) zum Nachverarbeiten aus- 
10 gebildet ist, um Kombinationspaare von identischen 

Flacheninf ormationen oder von Flacheninf ormationen die 
sich weniger als eine vorbestimmte Toleranz unter- 
scheiden, zu bestimmen, und um anhand einer Zeitdiffe- 
renz zwischen Zeitpunkten der Flacheninf ormationen ei- 
15 nes Kombinationspaars eine Frequenzinf ormation liber 

das Inf ormationssignal zu berechnen. 

16. Vorrichtung nach einem der Anspruche 10 bis, 12, 

20 bei der die Einrichtung (12) zum Nachverarbeiten aus- 

gebildet ist, um abrupte Flacheninf ormationsanderungen 
in der Folge von Flacheninf ormationen zu bestimmen, 
und um bei abrupten Flacheninf ormationsanderungen das 
Inf ormationssignal zu segmentieren . 



25 



17. Vorrichtung nach einem der Anspruche 10 bis 16, 



bei der die Einrichtung (12) zum Nachverarbeiten aus- 
gebildet ist, um Flacheninf ormationen zu normieren, um 
30 eine Folge von normierten Flacheninf ormationen zu er- 

halten . 



18. Vorrichtung nach einem der Anspruche 10 bis 17, 

35 bei der die Einrichtung (12) zum Nachverarbeiten aus- 

gebildet ist, um unter Verwendung der Flacheninf orma- 
tionen und von zugeordneten Zeitpunkten eine longitu- 
dinale Ausdehnung von Bergen oder Talern zu erhalten, 
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urn bestimmen zu konnen, ob es sich bei dem Inf ormati- 
onssignal urn ein Audiosignal mit einer Sprache oder 
einer Instrumentenmusik handelt. 



5 19. Vorrichtung nach einem der vorhergehenden Anspruche, 

bei der Einrichtung (11) zum Ermitteln ausgebildet 
ist, urn eine Folge von Flacheninf ormationen oder Volu- 
meninf ormationen zu ermitteln, 

10 

wobei die Vorrichtung ferner eine Normierungseinrich- 
tung aufweist, die ausgebildet ist, urn durch Addition 
von zumindest zwei Elementen der Folge von Flachenin- 
f ormationen oder Volumeninf ormationen eine Gesamtfla- 
15 che oder ein Gesamtvolumen zu berechnen, und die fer- 

ner ausgebildet ist, urn die Elemente der Folge durch 
die Gesamtflache oder das Gesamtvolumen zu dividieren, 
urn eine normierte Folge zu erhalten. 

20 20. Vorrichtung nach Anspruch 19, 

bei der die Normierungseinrichtung ausgebildet ist, um 
alle Elemente eines Segments der Folge auf zusummieren, 
wobei ein Segment ein Urmuster darstellt, das sich in 
25 einer unsegmentierten Folge wiederholt . 

21. Verfahren zum Aufbauen einer Inf ormationssignal- 
Datenbank (22) , mit folgenden Schritten: 

30 Charakterisieren (20) eines Inf ormationssignals, das 

einen Amplituden-Zeit-Verlauf mit lokalen Extremwerten 
aufweist, um Flacheninf ormationen fur ein Informati- 
onssignal zu erhalten, gemaB einem der Patentanspriiche 
1 bis 18; 



35 



Zufuhren (21) mehrerer Inf ormationssignale zu der Vor- 
richtung (20) zum Charakterisieren, um fur jedes In- 
formations signal einen Merkmalsvektor (MMl, MM2, MM3) 
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zu erhalten, der von den Flacheninf ormationen fiir das 
Inf ormationssignal abgeleitet ist; und 

Speichern (23) von Merkmalsvektoren (MM1 , MM2 r MM3) 
5 fur die Informationssignale, wobei jedem Merkmalsvek- 

tor ein Identif ikator (ID1, ID2, ID3) des Informati- 
onssignals zugeordnet ist, aus dem der jeweilige Merk- 
malsvektor ermittelt worden ist. 

22, Vorrichtung zum Identif izieren eines Inf ormationssig- 
nals unter Verwendung einer Inf ormationssignal- 
Datenbank (22) , die Merkmalsvektoren (MM1 , MM2, MM3) 
in Zuordnung zu jeweiligen Inf ormationssignalidentif i- 
katoren (ID1, ID2, ID3) speichert, mit folgenden Merk- 
malen: 

einer Vorrichtung zum Charakterisieren eines Informa- 
tionssignals, das einen Amplituden-Zeit-Verlauf mit 
lokalen Extremwerten aufweist, gemaii einem der Ansprii- 
20 che 1 bis 18, urn Flacheninf ormationen von mehreren 

Bergen oder Talern zu erhalten, die fur das Informati- 
onssignal charakteristisch sind; und 

einer Einrichtung zum Vergleichen eines Merkmalsvek- 
tors, der von den Flacheninf ormationen oder Volumenin- 
formationen abgeleitet ist, die fiir ein Test- 
Inf ormationssignal charakteristisch sind, mit in der 
Inf ormationssignal-Datenbank (22) gespeicherten Merk- 
malsvektoren, urn eine Aussage liber das Informations- 
signal zu treffen. 

23. Verfahren zum Identif izieren eines Inf ormationssignals 
unter Verwendung einer Inf ormationssignal-Datenbank 
(22), die Merkmalsvektoren (MM1, MM2, MM3) in Zuord- 

35 nung zu jeweiligen Inf ormationssignalidentif ikatoren 

(ID1, ID2, ID3) speichert, mit folgenden Schritten: 



10 
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25 



30 



WO 2004/010327 



36 



PCT/EP2003/001916 



Charakterisieren eines Inf ormationssignals , das einen 
Amplituden-Zeit-Verlauf mit lokalen Extremwerten auf- 
weist, gemaB einem der Anspriiche 1 bis 18, urn Flachen- 
informationen von mehreren Bergen oder Talern zu er- 
5 halten, die fur das Inf ormationssignal charakteris- 

tisch sind; und 

Vergleichen eines Merkmalsvektors, der von den Fla- 
cheninformationen oder Volumeninf ormationen abgeleitet 
10 ist, die fur ein Test~Inf ormationssignal charakteris- 

tisch sind, mit in der Inf ormationssignal-Datenbank 
(22) gespeicherten Merkmalsvektoren, urn eine Aussage 
iiber das Inf ormationssignal zu treffen. 



15 24 . 



Computer-Programm mit einem Programmcode zum Durchfuh- 
ren eines Verfahrens nach einem der Anspriiche 19, 21 
oder 23, wenn das Programm auf einem Computer ablauft. 
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Streckungsfaktor c'; V ges =Vi 2+V23+... 

Vges=c-Vi2+cV23=c-Vges 




Fig. 6 



ERSATZBLATT (REGEL 26) 



